查看原文
其他

为什么说统计数字会撒谎?

2016-12-27 代洲 数洞社媒

「撒谎有三种:撒谎,瞒天大谎......引用统计数字。

作者 | 代洲

编辑 | 廖皮

来源 | 社会学吧(sociologybar)

如今已是大数据时代,黄仁宇对中国缺乏“数目字管理”的论断似乎已是明日黄花,申请项目或者撰写论文时没点数据分析都不好意思跟人说。但我们真的会使用数据吗?读得懂数据吗?会不会被内行人的一些小伎俩所捉弄呢?


△图片来源:社会学吧

为什么说统计数字会撒谎?

统计专家达莱尔•哈夫的《统计数字会撒谎》(How to Lie with Statistics, 1954)(廖影林 译,中国城市出版社2009年),这一本小册子就指出了生活中常见的数据陷阱。读完此书,你在面对五花八门的数据时也可以有双火眼金睛,而不是被数字所迷惑。

数据分析过程一般包括样本收集,数据分析,图表展示和因果推论。若想从中做点手脚,四个阶段都可以下手。


一、样本收集

对于庞大总体而言,不可能将所有数据完整收集,既费时费力,也事倍功半。好在有“样本代表总体”这一规律,从总体里选择部分样本,其数据分析结果在一定条件和范围内能代表总体。因此,调查机构一般通过街头采访和电话调查来了解普通民众对某件事的观点看法。

1、非随机抽样

但“样本代表总体”成立有一前提条件,必须是“随机抽样,即总体中的每个名字或每个事物有相同的几率被抽取”。忽视这一前提,其数据分析结果可信度会大大下降。

1936年美国总统选举前夕,当时一本知名杂志《文学文摘》根据回收的240万份读者调查问卷和随机电话抽样调查后,断言共和党的兰登即将以 57% 对 43% 的绝对优势大胜民主党的罗斯福,但结果却是罗斯福以 62% 的支持率成功连任美国总统。

240万份的样本数量绝不是小数,但为何最终结果却与之大相径庭?一方面是因为问卷回收率只有24%,剩余76%样本的意见并没有被纳入统计数据框,而这76%的样本可能大部分倾向于投票给罗斯福。另一方面,1936年的美国并非家家户户都有电话,能使用电话的家庭一般都比较富裕,而他们不太喜欢“在美国推行共产主义”的罗斯福,从而统计数据上显示罗斯福的支持率低。

因此,《文学文摘》的240万样本至多只能代表美国富裕家庭,非随机抽样最终使得其样本无法代表全美民众。

2、抽样局限

即使采用随机抽样方法收集样本数据,仍然有可能偏离事实。1936年预测总统选举时盖洛普凭借配额抽样方法,成功预测罗斯福当选,因而盖洛普公司名噪一时。待到1948年大选时,从1947年10月至1948年3月的民调都显示杜鲁门获胜的几率不高,甚至《芝加哥每日论坛报》为11月3日的竞选新闻提前加上这样标题:“杜威击败杜鲁门”。11月3日当天选举结果揭晓,杜鲁门当选,或许为了出一口恶气,他手举着印有“杜威击败杜鲁门”大幅通栏标题的《芝加哥每日论坛报》。


△图片来源:bbs.voc.com.cn

怎么可能会发生这种事情?难道之前的民调结果有错误吗?其实并非民调错误,而是因为“调查时的态度与实际投票行为之间有差别”。民意调查属于观点态度调查,较为轻松随性,但投选举票是庄重地行使政治权利,二者不能完全等同。

毕竟个人的价值立场不一定和实际偏好一致。假设当你在街头被问到,是否反对地域歧视,你必然正气凌然地表示支持。但当你坐公交时,车上站着一群着装不太整洁的河南民工时,你心里是否还是有点不自在?就像《疯狂动物城》中,大家都接受“食物动物与食草动物平等和谐共处”的观念,但在地铁里兔子妈妈看见身边坐着老虎,还是会把孩子拉近一点。


二、数据分析

当按照随机抽样原则获得数据后,下一步骤就是进行数据分析,此时会不会有一些猫腻呢?

1、精心挑选的平均数

当某省发布人均收入数据时,经常有网友调侃“又拖国家后腿了”。但实际上大家心里也都清楚,这个人均收入仅仅作为参考,必须配合其他数据才能对该省的经济形势有全面了解,否则只看人均收入这一项数据,意义不大。

假如比尔•盖茨移民到某一非洲穷国,该国的人均GDP相应地会有大幅度的上涨。但这有意义吗?穷国里的人们依然吃不上面包。类似的,即使某地区人均收入有了提升,但依然存在一种可能性,就是富人财富量的增加远远快于穷人财富量的增加,造成的结果是“数据显示人均收入上升,但贫富差距在拉大”。

2、毫无意义的工作

有些数据被分析出来是无意义的,即使数据看起来如此漂亮。之前看过《中国的人口与城市•知乎chenqin自选集》其中一篇《城市的集聚》,作者数据分析后得出结论,“城市增大后该城市的总污染增加,但除以城市人口总数后,人均污染减少,对于全国来说总污染反而减少了”。如此论断在去年柴静的《穹顶之下》纪录片也能得到支持,其中指出集中烧煤所产生的污染比分散烧煤所产生的污染少,英国当年治理雾霾的一大举措就是减少家庭烟囱转而采用集中供暖。

但这似乎在挑战常识,大城市的污染程度不应该比农村的更严重吗?

这是因为环境污染不能被人均!空气污染指标PM2.5值能被平均吗?温度能被平均吗?每个人感知的温度都是相同,100个人感受到的温度是30℃,10000个人感受到的温度还是30℃。因此,城市的集聚功能主要是体现在优化资源效率上,但环境污染并不一定会随之降低,如果相应的环保措施没有跟上的话。


三、图表展示

数据分析结束后大多会以图表形式来展示分析结果,而在这个地方玩些花招,可能就神不知鬼不觉。

1、直觉错觉

请看下图


直观看来左图中两个柱状之间的差距,没有右图中差距明显。但加上统一刻度尺后呢? 


加上统一刻度尺后,可以清楚地发现柱体之间的差距是相等的。这就是直觉带来的错觉,当年物理教科书开篇就给了几幅直觉错觉图以说明“统一标尺”的重要性。

直觉错误常被利用于宣传手册。假设A国GDP总量为100,B国GDP总量为200,有人根据这一数据做成下图。


△图片来源:guokr.com

你是否觉得不可思议?右边的钱袋子相较于左边的钱袋子明显不止一倍!猫腻就在于右边钱袋子的长高都等比例地放大一倍,从而在面积上成了四倍差距,所以才显得格外大。

2、偷梁换柱

除了改变图形的大小比例,也可以在纵横坐标的比例上做文章。以去年八月份余额宝七日年化收益率走势图为例【截图来自手机余额宝应用】,图中可以看见8月24号以来的强势扭转,单就这幅图而言,8月26日达到了历史新高。


我在某一基金网站上找到当时余额宝半年来的走势图,上图中的强势扭转顿时化为一泻千里! 


两幅图的巨大差别,一方面是因为基金网站截图选取的时间起始于4月30日,时间更长,下降的趋势因此更明显;另一方面,余额宝应用截图中纵轴的取值范围为(3.182-3.288),基金网站截图纵轴的取值范围是(3.0-4.5),更大的取值范围从而导致了两幅区别明显的走势图。果然是“宝宝心里苦,但宝宝不说”。


四、因果推论

以合适图形展示数据结果后,那么最后一步就是因果推论,而这一点是最容易出差错的地方。此处就用生活中的一个小常识来说明。夏天到了,冰淇淋的销量大涨,但同时落水死亡人数也在上升。那是否可以认为“冰淇淋销量的上涨,导致了死亡人数的上升”?大家会心一笑,反驳说那是因为夏天更多的人去游泳从而落水死亡人数会增加,与冰淇淋销量完全无关。

这道题还算简单,但下面这个例子就不一定能很快猜到答案。

故事取自《魔鬼经济学》,大意是一个汽车客户发现,当他开车出门去冰淇淋店买草莓口味的冰淇淋时,车子再次发动没有问题。但是如果他买的是巧克力口味时,车子就经常熄火,并且一再发生。于是将这件怪事报告给汽车厂商,维修人员仔细检查后仍然没有找到问题。

于是维修人员跟着他一块儿去买冰淇淋,才发现了故障原因。原来,这个客户开车到冰淇淋店后不拔出车钥匙,下车直接去买冰淇淋。草莓口味冰淇淋制作时间短,很快就可以回来继续启动汽车,而巧克力口味冰淇淋制作时间相对较长,等回来坐上车时,车上某个零件因为长时间的“待机”而出了问题,容易导致熄火。

因此,谨记相关关系不一定都是因果关系!否则,夏天时警察会去抓冰淇淋店老板,以试图降低落水死亡人数。


五、总结

数据统计分析是当下最流行的分析工具,其客观可视化等优势可以让大众很快接受讯息。但要想得到准确合理的数据分析结果,必须避免以下几点:刻意选择的样本,无意义的平均数,被蒙蔽的图形以及虚假的因果关系,否则很容易掉进统计陷阱。

总而言之,“尽信数据,不如无数据”!

作者为英国华威大学社会学系博士研究生。


推荐阅读:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存